自然语言处理(NLP)的发展标志着一个根本性转变:语言不再被视为孤立的离散符号,而是被映射到连续的多维向量空间中。我们已经从简单的 基于特征的表示 发展为深层的语义映射。
表示方法的演变
- 统计时代(稀疏型): 早期的自然语言处理依赖于TF-IDF算法。尽管在信息检索方面表现良好,但存在“稀疏性诅咒”问题。在TF-IDF系统中,“医生”和“医师”是正交向量——数学上,它们之间毫无关联。
- 分布式革命(神经网络语言模型与Word2Vec): 神经网络语言模型引入了密集向量。Word2Vec(Skip-gram/CBOW)学习到,在相似上下文中出现的词语应具有相近的空间位置。
- 全局统计(GloVe): GloVe通过分析整个语料库中的全局共现关系来弥合差距,确保向量间的距离反映数学上的语义相似性。
深度洞察
从统计词频转变为预测上下文,使模型能够捕捉细微差别。这种“分布式表示”意味着单个词语的意义被分散在数百个向量维度中,每个维度可能代表一种潜在的语义特征,如性别、王室身份或医学背景。